四、SWIG 之 其他操作指南

一、通过值解析结构体

有时,C 函数采用按值传递的结构体参数。

/* example.i */
%module example

%inline %{
double dot_product(Vector a, Vector b);
%}

为了解决这个问题,SWIG 通过创建一个等效于以下内容的包装器来转换函数以使用指针, 类似实现如下所示:

double wrap_dot_product(Vector *a, Vector *b) {
    Vector x = *a;
    Vector y = *b;
    return dot_product(x, y);
}

在目标语言中,dot_product() 函数现在接受指向 Vector 的指针而不是 Vector。在大多数情况下,这种转变是透明的。也就是说Python传递过来的已经是转变过后的 Vector的指针了

二、返回值

按值返回结构体或类数据类型的 C 函数更难处理。考虑以下函数:

/* example.i */
%module example

%inline %{
    Vector cross_product(Vector v1, Vector v2);
%}

这个函数想要返回 Vector,但 SWIG 只支持指针。因此,SWIG 创建了一个这样的包装器,类似实现如下所示:

Vector *wrap_cross_product(Vector *v1, Vector *v2) {
    Vector x = *v1;
    Vector y = *v2;
    Vector *result;
    result = (Vector *) malloc(sizeof(Vector));
    *(result) = cross(x, y);
    return result;
}

如果在 -c++ 模式下运行 SWIG, 类似实现如下所示:

Vector *wrap_cross(Vector *v1, Vector *v2) {
    Vector x = *v1;
    Vector y = *v2;
    Vector *result = new Vector(cross(x, y)); // Uses default copy constructor
    return result;
}

在这两种情况下,SWIG 都会分配一个新对象并返回对它的引用。用户在不再使用时删除返回的对象。显然,如果不知道隐式内存分配并且不采取措施来释放结果,这将导致内存泄漏。也就是说,应该注意的是,某些语言模块现在可以自动跟踪新创建的对象并为你回收内存。还应该注意的是,C++ 中按值传递/返回的处理有一些特殊情况。例如,如果 Vector 没有定义默认构造函数,则上面的代码片段无法正常工作。

三、链接结构体变量

当遇到涉及结构体的全局变量或类成员时,SWIG 将它们作为指针处理。例如,像这样的全局变量

Vector unit_i;

被映射到一对底层的 set/get 函数,类似实现如下所示:

Vector *unit_i_get() {
  return &unit_i;
}
 
void unit_i_set(Vector *value) {
  unit_i = *value;
}

以这种方式创建的全局变量将显示为目标脚本语言中的指针。释放或销毁这样的指针是一个非常糟糕的主意。此外,C++ 类必须提供正确定义的复制构造函数,以使赋值正常工作。

四、链接到char *

4.1 char *分配内存基本

当出现 char * 类型的全局变量时,SWIG 使用 malloc() 或 new 为新值分配内存。具体来说,如果你有这样的变量

char *foo;

SWIG 产生如下代码:

/* C mode */
void foo_set(char *value) {
  if (foo) free(foo);
  foo = (char *) malloc(strlen(value)+1);
  strcpy(foo, value);
}
 
/* C++ mode.  When -c++ option is used */
void foo_set(char *value) {
  if (foo) delete [] foo;
  foo = new char[strlen(value)+1];
  strcpy(foo, value);
}

当然,可以编写一个简短的辅助函数来完全按照你的意愿设置值:

/* example.i */
%module example

%inline %{
    void set_foo(char *value) {
        strncpy(foo, value, 50);
  }
%}
# 注意:如果你编写这样的辅助函数,则必须将其作为函数从目标脚本语言中调用(它不像变量那样工作)。
set_foo("Hello World")

4.2 char *分配内存常见错误

char * 变量的一个常见错误是链接到这样声明的变量:

/* example.i */
%module example

%inline %{
    char *VERSION = "1.0";
%}

在这种情况下,变量将是可读的,但任何更改值的尝试都会导致分段或一般保护错误。这是因为当使用 malloc() 或 new 分配当前分配给变量的字符串文字值时,SWIG 正试图使用 free 或 delete 释放旧值。要解决此问题,可以将变量标记为只读,或者写类型映射,或者编写一个特殊的 set 函数。另一种最常见方法是将变量声明为数组:

char VERSION[64] = "1.0";

当声明类型为 const char * 的变量时,SWIG 仍会生成用于设置和获取值的函数。但是,默认行为不释放先前的内容(导致可能的内存泄漏)。实际上,在包装这样的变量时,可能会收到一条警告消息:

example.i:20. Warning. Setting a const char * variable may leak memory

 

 

     这种行为的原因是 const char * 变量通常用于指向字符串文字。因此,在这样的指针上调用 free() 是一个非常糟糕的主意。另一方面,将指针更改为指向某个其他值是合法的。设置此类型的变量时,SWIG 会分配一个新字符串(使用 malloc 或 new)并将指针更改为指向新值。但是,重复修改该值将导致内存泄漏,因为旧值未释放。

五、数组

SWIG 完全支持数组,但它们总是作为指针处理,而不是将它们映射到目标语言中的特殊数组对象或列表。因此,以下声明:

int foobar(int a[40]);
void grok(char *argv[]);
void transpose(double a[20][20]);

最后的处理好像它们被声明为如下这样:

int foobar(int *a);
void grok(char **argv);
void transpose(double (*a)[20]);

与 C 一样,SWIG 不执行数组边界检查。用户可以确保指针指向适当分配的内存区域。

多维数组被转换为指向较少维度的数组的指针。例如:

int [10];         // Maps to int *
int [10][20];     // Maps to int (*)[20]
int [10][20][30]; // Maps to int (*)[20][30]

    值得注意的是,在 C 类型系统中,多维数组 a[][] 是不等价于单个指针 *a 或双指针如 **a。而是使用指向数组的指针(如上所示,具体可参考 https://www.cnblogs.com/wangyong123/articles/13975849.html#_labelTop),其中指针的实际值是数组的起始内存位置。支持数组变量,但默认情况下它们是只读的。例如:

int a[100][200];

    在这种情况下,读取变量 a 会返回一个类型为 int (*)[200] 的指针,指向数组的第一个元素 &a[0][0]。试图修改 a 会导致错误。这是因为 SWIG 不知道如何将目标语言中的数据复制到数组中。要解决此限制,你可能需要编写一些简单的辅助函数,如下所示:

// example.c

int a[100][200];
/* example.i */
%module example

%inline %{
    int a[100][200];
    void a_set(int i, int j, int val) {
        a[i][j] = val;
    }
    int a_get(int i, int j) {
        return a[i][j];
    }
%}
# script.py

import example

example.a_set(1, 1, 10)
print(example.a_get(1, 1))  # 10

要动态创建各种大小和形状的数组,在接口中编写一些辅助函数可能很有用。例如:

// Some array helpers
%inline %{
      /* Create any sort of [size] array */
      int *int_array(int size) {
        return (int *) malloc(size*sizeof(int));
      }
      /* Create a two-dimension array [size][10] */
      int (*int_array_10(int size))[10] {
        return (int (*)[10]) malloc(size*10*sizeof(int));
      }
%}

char 数组由 SWIG 作为特例处理。在这种情况下,目标语言中的字符串可以存储在数组中。例如,如果有这样的声明

char pathname[256];

SWIG 生成用于获取和设置值的函数,这些函数等效于以下代码:

char *pathname_get() {
      return pathname;
}
 
void pathname_set(char *value) {
      strncpy(pathname, value, 256);
}

六、创建只读变量

6.1 %immutable、%mutable

可以使用 %immutable 指令创建只读变量,如下所示:

/* example.i */
%module example

%inline %{
    int a;       // Can read/write
    %immutable;
    int b, c, d;   // Read only variables
    %mutable;
    double x, y;  // read/write
%}

%immutable 指令启用只读模式,除非使用 %mutable 指令显式禁用它。作为这种关闭和打开只读模式的替代方法,单个声明也可以标记为不可变。例如:

%immutable x;                   // Make x read-only
double x;                       // Read-only (from earlier %immutable directive)
double y;                       // Read-write

6.2 %feature

%feature 是用来去除不需要只读变量的变量。
%mutable 和 %immutable 实际上是如下定义的 %feature 指令:

#define %immutable   %feature("immutable")
#define %mutable     %feature("immutable", "")

如果你想将所有包装变量设为只读,而不是一两个,否则采用这种方法可能更容易:

%immutable;                     // Make all variables read-only
%feature("immutable", "0") x;   // except, make x read/write
double x;
double y;
double z;

6.3 const

当声明声明为 const 时也会创建只读变量。例如:

const int foo;               /* Read only variable */
char * const version="1.0";  /* Read only variable */

七、重命名与忽略声明

7.1 特定标识符的简单重命名

7.1.1 %rename

通常,当声明包装到目标语言中时,将使用 C 声明的名称。但是,这可能会与脚本语言中的关键字或已存在的函数产生冲突。要解决名称冲突,可以使用 %rename 指令,%rename 对所有将来出现的名称应用重命名操作。重命名适用于函数、变量、类和结构体名称、成员函数和成员数据。例如,如果你有二十几个 C++ 类,都有一个名为 print 的成员函数(它是 Python 中的一个关键字),你可以通过指定它们将它们全部重命名为 output, 如下所示:

%rename(output) print; // Rename all 'print' functions to 'output'
// example.c
#include<stdio.h>
int a_really_long_and_annoying_name = 10;

void print(const char *a)
{
    printf("%c\n", *a);
}
/* example.i */
%module example

%inline %{
    int a_really_long_and_annoying_name;
%}
%rename(my_print) print;
extern void print(const char *);

%rename(foo) a_really_long_and_annoying_name;
extern int a_really_long_and_annoying_name;
# script.py
import example

print(example.cvar.foo)  # 10
example.my_print("a")  # a

SWIG 仍然调用正确的 C 函数,但在这种情况下,函数 print() 将在目标语言中被称为 my_print()。

%rename 指令的放置是任意的,只要它出现在要重命名的声明之前。一种常见的技术是编写用于包装头文件的代码,如下所示:

// example.h
extern void print(const char *);
extern int a_really_long_and_annoying_name;
/* example.i */
%module example

%inline %{
    int a_really_long_and_annoying_name;
%}
%rename(my_print) print;
%rename(foo) a_really_long_and_annoying_name;

%include "example.h"

7.1.2 %ignore

SWIG 通常不执行任何检查以查看它包装的函数是否已在目标脚本语言中定义。但是,如果对命名空间和模块的使用非常小心,通常可以避免这些问题。
与 %rename 密切相关的是 %ignore 指令。%ignore 指示 SWIG 忽略与给定标识符匹配的声明。例如:

/* example.i */
%module example

%ignore print;         // Ignore all declarations named print
%ignore MYMACRO;       // Ignore a macro
%inline %{
    #define MYMACRO 123
    void print(const char *);
%}

任何与 %ignore 匹配的函数、变量等都不会被包装,因此无法在目标语言中使用。%ignore 的一个常见用法是有选择地从头文件中删除某些声明,而不必向头部添加条件编译。但是,应该强调的是,这仅适用于简单的声明。如果你需要删除整个有问题的代码段,则应使用 SWIG 预处理器。

7.2 高级重命名支持

7.2.1 全部重命名

虽然为特定声明编写 %rename 很简单,但有时需要将相同的重命名规则应用于 SWIG 输入中的许多(可能是全部)标识符。例如,可能需要对目标语言中的所有名称应用某些转换,以便更好地遵循其命名约定,例如向所有包装器函数添加特定前缀。为每个函数单独执行操作是不切实际的,因此如果未指定要重命名的标识符的名称,SWIG 支持将重命名规则应用于所有声明:

%rename("myprefix_%s") ""; // print -> myprefix_print

这也表明 %rename 的参数不必是文字字符串,但可以是 printf() 类型格式的字符串。在最简单的形式中,%s 被替换为原始声明的名称,如上所示。然而,这并不总是足够的,并且 SWIG 提供了对通常的格式字符串语法的扩展,以允许将(SWIG 定义的)函数应用于参数。例如,要将所有 C 函数 do_something_long() 包装为更像 Java 的 doSomethingLong(),你可以使用这样的 lowercamelcase 扩展格式说明符:

#include<stdio.h>

void print(const char *a)
{
    printf("%c\n", *a);
}

void PRINT()
{
    printf("123\n");
}
/* example.i */
%module example

%rename("myprefix_%s") ""; // print -> myprefix_print   PRINT -> myprefix_PRINT

extern void print(const char *);
extern void PRINT();
# script.py
import example

example.myprefix_print("a")  # a
example.myprefix_PRINT()  # 123

7.2.2 重命名增加重命名函数操作

这也表明 %rename 的参数不必是文字字符串,但可以是 printf() 类型格式的字符串。在最简单的形式中,%s 被替换为原始声明的名称,如上所示。然而,这并不总是足够的,并且 SWIG 提供了对通常的格式字符串语法的扩展,以允许将(SWIG 定义的)函数应用于参数。例如,要将所有 C 函数 do_something_long() 包装为更像 Java 的 doSomethingLong(),你可以使用这样的 lowercamelcase 扩展格式说明符:

#include<stdio.h>

void PRINT()
{
    printf("123\n");
}

void PRINT_Hello()
{
    printf("Hello World\n");
}
/* example.i */
%module example

%rename("%(lowercamelcase)s") "";  // PRINT -> pRINT,   PRINT_Hello -> pRINTHello

extern void PRINT();
extern void PRINT_Hello();
# script.py

import example

example.pRINT()  # 123
example.pRINTHello()  # Hello World

某些函数可以进行参数化,例如 strip 从其参数中剥离提供的前缀。在函数名称后跟冒号后,前缀被指定为格式字符串的一部分:

%rename("%(strip:[wx])s") ""; // wxHello -> Hello;
#include<stdio.h>

void wxHello()
{
    printf("123\n");
}
/* example.i */
%module example

%rename("%(strip:[wx])s") ""; // wxHello -> Hello;

extern void wxHello();
# script.py

import example
example.Hello()  # 123

7.2.3 常用重命名操作函数

下面是总结所有当前定义的函数的表,其中包含应用每个函数的示例。请注意,其中一些名称有两个名称,一个较短的名称和一个更具描述性的名称,但这两个函数在其他方面是等效的:

FunctionReturnsExample (out)Example (out)
uppercaseorupper Upper case version of the string. Print PRINT
lowercaseorlower Lower case version of the string. Print print
title String with first letter capitalized and the rest in lower case. print Print
firstuppercase String with the first letter capitalized and the rest unchanged. printIt PrintIt
firstlowercase String with the first letter in lower case and the rest unchanged. PrintIt printIt
camelcaseorctitle String with capitalized first letter and any letter following an underscore (which are removed in the process) and rest in lower case. print_it PrintIt
lowercamelcaseorlctitle String with every letter following an underscore (which is removed in the process) capitalized and rest, including the first letter, in lower case. print_it printIt
undercaseorutitle Lower case string with underscores inserted before every upper case letter in the original string and any number not at the end of string. Logically, this is the reverse of camelcase. PrintIt print_it
schemify String with all underscores replaced with dashes, resulting in more Lispers/Schemers-pleasing name. print_it print-it
strip:[prefix] String without the given prefix or the original string if it doesn't start with this prefix. Note that square brackets should be used literally, e.g. %rename("strip:[wx]") wxPrint Print
rstrip:[suffix] String without the given suffix or the original string if it doesn't end with this suffix. Note that square brackets should be used literally, e.g. %rename("rstrip:[Cls]") PrintCls Print
regex:/pattern/subst/ String after (Perl-like) regex substitution operation. This function allows to apply arbitrary regular expressions to the identifier names. The pattern part is a regular expression in Perl syntax (as supported by the Perl Compatible Regular Expressions (PCRE)) library and the subst string can contain back-references of the form \N where N is a digit from 0 to 9, or one of the following escape sequences: \l, \L, \u, \U or \E. The back-references are replaced with the contents of the corresponding capture group while the escape sequences perform the case conversion in the substitution string: \l and \L convert to the lower case, while \u and \Uconvert to the upper case. The difference between the elements of each pair is that \land \u change the case of the next character only, while \L and \U do it for all the remaining characters or until \E is encountered. Finally please notice that backslashes need to be escaped in C strings, so in practice "\\" must be used in all these escape sequences. For example, to remove any alphabetic prefix before an underscore and capitalize the remaining part you could use the following directive:%rename("regex:/(\\w+)_(.*)/\\u\\2/") prefix_print Print
command:cmd Output of an external command cmd with the string passed to it as input. Notice that this function is extremely slow compared to all the other ones as it involves spawning a separate process and using it for many declarations is not recommended. The cmd is not enclosed in square brackets but must be terminated with a triple '<' sign, e.g. %rename("command:tr -d aeiou <<<")(nonsensical example removing all vowels) Print Prnt

 

所有上述功能中最常用的功能(不包括 command,原则上功能更强大,但由于性能方面的考虑通常应该避免这种功能)是 regex(正则表达式)。以下是其使用的更多示例:

// Strip the wx prefix from all identifiers except those starting with wxEVT
%rename("%(regex:/wx(?!EVT)(.*)/\\1/)s") ""; // wxSomeWidget -> SomeWidget
                                             // wxEVT_PAINT -> wxEVT_PAINT
 
// Apply a rule for renaming the enum elements to avoid the common prefixes
// which are redundant in C#/Java
%rename("%(regex:/^([A-Z][a-z]+)+_(.*)/\\2/)s", %$isenumitem) ""; // Colour_Red -> Red
 
// Remove all "Set/Get" prefixes.
%rename("%(regex:/^(Set|Get)(.*)/\\2/)s") ""; // SetValue -> Value
                                              // GetValue -> Value

和以前一样,关于 %rename 的上述内容也适用于 %ignore。事实上,后者只是前者的特例,忽略标识符与将其重命名为特殊的 ignore 值相同。所以下面的片段

%ignore print;

%rename("$ignore") print;

完全等价,%rename 可用于使用前面描述的匹配可能性选择性地忽略多个声明。

7.3 限制全局重命名规则

如前面部分所述,可以重命名单个声明,也可以一次将重命名规则应用于所有声明。实际上,后者很少适用,因为一般规则总有一些例外。为了处理它们,可以使用后续的 match 参数来限制未命名的 %rename 的范围。它们可以应用于 SWIG 关联的任何属性,并在其输入中显示声明。例如:

%rename("foo", match$name="bar") "";

可以用更简单的方式达到同样的效果

%rename("foo") bar;

所以它本身并不是很有趣。但是 match 也可以应用于声明类型,例如 match ="class" 仅限于匹配类声明(在 C++ 中)和 match ="enumitem" 将它限制为枚举元素。SWIG 还为这种匹配表达式提供了便利的宏,例如

%rename("%(title)s", %$isenumitem) "";

将大写所有枚举元素的名称,但不改变其他声明的大小写。类似地,可以使用 %$isclass、%$isfunction、%$isconstructor、%$isunion、%$istemplate 和 %$isvariable。许多其他检查都是可能的,本文档并非详尽无遗,请参阅 swig.swg 中的 %rename 谓词部分,以获取支持的匹配表达式的完整列表。

除了将一些字符串与 match 字面匹配之外,你还可以使用 regexmatch 或 notregexmatch 来匹配正则表达式的字符串。例如,要忽略所有具有 Old 作为后缀的函数,可以使用

%rename("$ignore", regexmatch$name="Old$") "";

对于像这样的简单情况,直接指定声明名称的正则表达式是可取的,也可以使用 regextarget 来完成:

%rename("$ignore", regextarget=1) "Old$";

请注意,仅对声明本身的名称进行检查,如果需要匹配 C++ 声明的全名,则必须使用 fullname 属性:

%rename("$ignore", regextarget=1, fullname=1) "NameSpace::ClassName::.*Old$";

对于 notregexmatch,它仅将匹配限制为与指定正则表达式不匹配的字符串。因此,除了仅包含大写字母的声明外,将所有声明重命名为小写:

%rename("$(lower)s", notregexmatch$name="^[A-Z]+$") "";

最后,%rename 和 %ignore 指令的变体可用于帮助包装 C++ 重载函数和方法或使用默认参数的 C++ 方法

7.4 包装一些符号而忽略其他

使用上述技术,可以忽略头文件中的所有内容,然后有选择地包装一些选定的方法或类。例如,考虑一个头文件,myheader.h,其中包含许多类,并且在此头文件中只需要一个名为 Star 的类,可以采用以下方法:

%ignore ""; // Ignore everything
 
// Unignore chosen class 'Star'
%rename("%s") Star;
 
// As the ignore everything will include the constructor, destructor, methods etc
// in the class, these have to be explicitly unignored too:
%rename("%s") Star::Star;
%rename("%s") Star::~Star;
%rename("%s") Star::shine; // named method
 
%include "myheader.h"

有另一种可能更合适的方法(因为它不需要命名所选类中的所有方法),首先忽略类。这不会向类的任何成员添加显式忽略,因此当所选类被取消时,它的所有方法都将被包装。

%rename($ignore, %$isclass) ""; // Only ignore all classes
%rename("%s") Star; // Unignore 'Star'
%include "myheader.h"

八、默认/可选参数

SWIG 支持 C 和 C++ 代码中的默认参数。例如:

int plot(double x, double y, int color=WHITE);

在这种情况下,SWIG 生成包装器代码,其中默认参数在目标语言中是可选的。

#include<stdio.h>

void plot(double x, double y, int color)
{
    printf("x = %lf, y = %lf, color = %d\n", x, y, color);
}
/* example.i */
%module example

%{
    enum COLOR {WHITE, BLACK};
%}
extern void plot(double x, double y, int color=WHITE);
# script.py
import example

example.plot(1.2, 3.4)  # x = 1.200000, y = 3.400000, color = 0
example.plot(1.2, 3.4, 1)  # x = 1.200000, y = 3.400000, color = 0

尽管 ANSI C 标准不允许使用默认参数,但 SWIG 接口中指定的默认参数同时适用于 C 和 C++。

关于使用默认参数和 SWIG 生成的包装器代码存在一个微妙的语义问题。当在 C 代码中使用默认参数时,默认值将发送到包装器中,并使用一组完整的参数调用该函数。这与包装 C++ 时的不同之处在于为每个默认参数生成重载的包装器方法。

九、函数指针与回调

9.1 使用%constant指令作为常量安装

说明: 根据官方文档,本人尚未研究出来该怎么写, 后续补充。

有时,C 库可能包含期望接受函数指针的函数——可能用作回调函数。SWIG 提供对函数指针的完全支持,前提是回调函数是用 C 语言定义的,而不是用目标语言定义的。例如,考虑这样的函数:

/* example.i */
%module example

%inline %{
    int binary_op(int a, int b, int (*op)(int, int));
%}

当你第一次将这样的东西包装到扩展模块中时,可能会发现该功能无法使用。例如:

def add(x, y):
    return x+y

binary_op(3, 4, add)

Traceback (most recent call last):
  File "<stdin>", line 1, in ?
TypeError: Type error. Expected _p_f_int_int__int

 

 出现此错误的原因是 SWIG 不知道如何将脚本语言函数映射到 C 回调中。但是,如果将现有 C 函数作为常量安装,则可以将它们用作参数。一种方法是使用 %constant 指令,如下所示:

/* Function with a callback */
int binary_op(int a, int b, int (*op)(int, int));
 
/* Some callback functions */
%constant int add(int, int);
%constant int sub(int, int);
%constant int mul(int, int);

在这种情况下,add、sub 和 mul 成为目标脚本语言中的函数指针常量。这允许你按如下方式使用它们:

9.2 使用%callback指定回调常量

说明: 根据官方文档,本人尚未研究出来该怎么写, 后续补充。
如果想把一个函数作为回调函数和函数使用,你可以像这样使用 %callback 和 %nocallback 指令:

/* Function with a callback */
int binary_op(int a, int b, int (*op)(int, int));
 
/* Some callback functions */
%callback("%s_cb");
int add(int, int);
int sub(int, int);
int mul(int, int);
%nocallback;

 

posted on 2022-11-22 16:57  软饭攻城狮  阅读(290)  评论(0编辑  收藏  举报

导航